智能论文笔记

DAG Card is the new Model Card

Jacopo Tagliabue , Ville Tuulos , Ciro Greco , Valay Dave

分类：机器学习

2021-10-24

随着建模能力的逐步商品化，以数据为中心的AI认识到培训前后发生的事情对于真实世界部署至关重要。在模型卡背后的直觉之后，我们提出了DAG卡作为一种文件形式，包括以数据为中心的观点的原则。我们认为机器学习管道（而不是模型）是许多实际用例中最合适的文档水平，我们与社区共享一个开放实现以从代码生成卡。

translated by 谷歌翻译

Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders

Ciro Antonio Mami , Andrea Coser , Eric Medvet , Alexander T. P. Boudewijn , Marco Volpe , Michael Whitworth , Borut Svara , Gabriele Sgroi , Daniele Panfilo , Sebastiano Saccani

分类：机器学习 | 人工智能

2022-11-30

Synthetic data generation has recently gained widespread attention as a more reliable alternative to traditional data anonymization. The involved methods are originally developed for image synthesis. Hence, their application to the typically tabular and relational datasets from healthcare, finance and other industries is non-trivial. While substantial research has been devoted to the generation of realistic tabular datasets, the study of synthetic relational databases is still in its infancy. In this paper, we combine the variational autoencoder framework with graph neural networks to generate realistic synthetic relational databases. We then apply the obtained method to two publicly available databases in computational experiments. The results indicate that real databases' structures are accurately preserved in the resulting synthetic datasets, even for large datasets with advanced data types.

translated by 谷歌翻译

The language and social behavior of innovators

A. Fronzetti Colladon , L. Toschi , E. Ughetto , F. Greco

分类：自然语言处理

2022-09-20

创新者是有创造力的人，他们可以唤起代表创新组织主要引擎的开创性思想。过去的研究已广泛调查了谁是创新者以及他们在与工作有关的活动中的行为。在本文中，我们建议有必要分析创新者在其他情况下的行为，例如在非正式沟通空间中，在没有正式结构，规则和工作义务的情况下共享知识。利用通信和网络理论，我们分析了大型跨国公司的Intranet论坛上可用的38,000个帖子。由此，我们解释了创新者在社交网络行为和语言特征方面与其他员工的不同。通过文本挖掘，我们发现创新者编写更多，使用更复杂的语言，介绍新的概念/想法，并使用积极但基于事实的语言。了解创新者的行为和沟通如何支持想要促进创新的经理的决策过程。

translated by 谷歌翻译

SmOOD: Smoothness-based Out-of-Distribution Detection Approach for Surrogate Neural Networks in Aircraft Design

Houssem Ben Braiek , Ali Tfaily , Foutse Khomh , Thomas Reid , Ciro Guida

分类：机器学习

2022-09-07

飞机行业不断努力在人类的努力，计算时间和资源消耗方面寻求更有效的设计优化方法。当替代模型和最终过渡到HF模型的开关机制均被正确校准时，混合替代物优化保持了高效果，同时提供快速的设计评估。前馈神经网络（FNN）可以捕获高度非线性输入输出映射，从而为飞机绩效因素提供有效的替代物。但是，FNN通常无法概括分布（OOD）样本，这阻碍了它们在关键飞机设计优化中的采用。通过Smood，我们基于平滑度的分布检测方法，我们建议用优化的FNN替代物来编码一个依赖模型的OOD指标，以产生具有选择性但可信度的预测的值得信赖的替代模型。与常规的不确定性接地方法不同，Smood利用了HF模拟的固有平滑性特性，可以通过揭示其可疑敏感性有效地暴露OOD，从而避免对OOD样品的过度自信不确定性估计。通过使用SMOOD，仅将高风险的OOD输入转发到HF模型以进行重新评估，从而以低开销成本获得更准确的结果。研究了三个飞机性能模型。结果表明，基于FNN的代理在预测性能方面优于其高斯过程。此外，在所有研究案例中，Smood的确覆盖了85％的实际OOD。当Smood Plus FNN替代物被部署在混合替代优化设置中时，它们的错误率分别降低了34.65％和计算速度的降低率分别为58.36次。

translated by 谷歌翻译

DataPerf: Benchmarks for Data-Centric AI Development

Mark Mazumder , Colby Banbury , Xiaozhe Yao , Bojan Karlaš , William Gaviria Rojas , Sudnya Diamos , Greg Diamos , Lynn He , Douwe Kiela , David Jurado

分类：机器学习

2022-07-20

机器学习（ML）研究通常集中在模型上，而最突出的数据集已用于日常的ML任务，而不考虑这些数据集对基本问题的广度，困难和忠诚。忽略数据集的基本重要性已引起了重大问题，该问题涉及现实世界中的数据级联以及数据集驱动标准的模型质量饱和，并阻碍了研究的增长。为了解决此问题，我们提出Dataperf，这是用于评估ML数据集和数据集工作算法的基准软件包。我们打算启用“数据棘轮”，其中培训集将有助于评估相同问题的测试集，反之亦然。这种反馈驱动的策略将产生一个良性的循环，该循环将加速以数据为中心的AI。MLCommons协会将维护Dataperf。

translated by 谷歌翻译

Scaling up ML-based Black-box Planning with Partial STRIPS Models

Matias Greco , Álvaro Torralba , Jorge A. Baier , Hector Palacios

分类：人工智能 | 自然语言处理 | 机器学习

2022-07-10

顺序决策的一种流行方法是，以机器学习（ML）方法（如策略学习）进行基于模拟器的搜索。另一方面，如果有完整的声明模型，模型放松启发式方法可以有效地指导搜索。在这项工作中，我们考虑了从业人员如何在无法使用完整符号模型的设置上改善基于ML的黑盒计划。我们表明，指定一个不完整的条带模型，该模型仅描述了问题的一部分，才能使用放松启发式方法。我们对几个计划域的发现表明，这是改善基于ML的黑盒计划的有效方法，而不是收集更多数据或调整ML架构。

translated by 谷歌翻译

Segmentation-free PVC for Cardiac SPECT using a Densely-connected Multi-dimensional Dynamic Network

Huidong Xie , Zhao Liu , Luyao Shi , Kathleen Greco , Xiongchao Chen , Bo Zhou , Attila Feher , John C. Stendahl , Nabil Boutagy , Tassos C. Kyriakides

分类：计算机视觉 | 机器学习

2022-06-24

在核成像中，有限的分辨率会导致影响图像清晰度和定量准确性的部分体积效应（PVE）。已证明来自CT或MRI的高分辨率解剖信息的部分体积校正（PVC）已被证明是有效的。但是，这种解剖学引导的方法通常需要乏味的图像注册和分割步骤。由于缺乏具有高端CT和相关运动伪像的混合体SPECT/CT扫描仪，因此很难获得准确的分段器官模板，尤其是在心脏SPECT成像中。轻微的错误注册/错误分段将导致PVC后的图像质量严重降解。在这项工作中，我们开发了一种基于深度学习的方法，用于快速心脏SPECT PVC，而无需解剖信息和相关的器官分割。所提出的网络涉及密集连接的多维动态机制，即使网络经过充分训练，也可以根据输入图像对卷积内核进行调整。引入了心脏内血容量（IMBV）作为网络优化的附加临床损失函数。提出的网络表明，使用Technetium-99M标记的红细胞在GE发现NM/CT 570C专用心脏SPECT扫描仪上获得的28个犬类研究表现有希望的表现。这项工作表明，与没有这种机制的同一网络相比，具有密集连接的动态机制的提议网络产生了较高的结果。结果还表明，没有解剖信息的提出的网络可以与解剖学引导的PVC方法产生的图像产生具有统计上可比的IMBV测量的图像，这可能有助于临床翻译。

translated by 谷歌翻译

A General Framework for Hierarchical Redundancy Resolution Under Arbitrary Constraints

Mario D. Fiore , Gaetano Meli , Anton Ziese , Bruno Siciliano , Ciro Natale

分类：机器人

2022-04-08

The increasing interest in autonomous robots with a high number of degrees of freedom for industrial applications and service robotics demands control algorithms to handle multiple tasks as well as hard constraints efficiently. This paper presents a general framework in which both kinematic (velocity- or acceleration-based) and dynamic (torque-based) control of redundant robots are handled in a unified fashion. The framework allows for the specification of redundancy resolution problems featuring a hierarchy of arbitrary (equality and inequality) constraints, arbitrary weighting of the control effort in the cost function and an additional input used to optimize possibly remaining redundancy. To solve such problems, a generalization of the Saturation in the Null Space (SNS) algorithm is introduced, which extends the original method according to the features required by our general control framework. Variants of the developed algorithm are presented, which ensure both efficient computation and optimality of the solution. Experiments on a KUKA LBRiiwa robotic arm, as well as simulations with a highly redundant mobile manipulator are reported.

translated by 谷歌翻译

A Novel Machine Learning Approach to Data Inconsistency with respect to a Fuzzy Relation

Marko Palangetić , Chris Cornelis , Salvatore Greco , Roman Słowiński

分类：人工智能 | 机器学习

2021-11-26

当在条件属性上以某种方式相关的实例时，发生预测问题的不一致不会遵循决策属性的相同关系。例如，在具有单调性约束的序数分类中，当在条件属性上占据另一个实例的实例已经分配给更糟糕的决策类时，会发生它。它通常出现在由不完全知识（缺少属性）或通过数据生成期间发生的随机效果引起的数据的扰动（在决策属性值的评估中的不稳定性）引起的数据中的扰动。可以使用符号方法如粗糙集理论等象征方法处理和涉及优化方法的统计/机器学习方法，处理相对于清晰的预购关系（表达实例之间的差异或实例之间的无漏能格）不一致。模糊粗糙集也可以被视为对模糊关系处理不一致的象征性方法。在本文中，我们介绍了一种新的机器学习方法，用于对模糊预订关系进行不一致处理。新颖的方法是由用于清脆关系的现有机器学习方法的激励。我们为IT提供统计基础，并开发可用于消除不一致的优化程序。本文还证明了重要的财产，并载有这些程序的教学例子。

translated by 谷歌翻译

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

Daniel Galvez , Greg Diamos , Juan Ciro , Juan Felipe Cerón , Keith Achorn , Anjali Gopi , David Kanter , Maximilian Lam , Mark Mazumder , Vijay Janapa Reddi

分类：机器学习 | (统计)机器学习

2021-11-17

人民的言论是自由下载的30,000小时，并在CC-BY-SA下进行学术和商业用途的许可的受监管的会话英语语音识别数据集（具有CC-by子集）。通过使用现有转录搜索适当许可的音频数据来通过搜索互联网来收集数据。我们描述了我们的数据收集方法，并在Apache 2.0许可证下发布了我们的数据收集系统。我们表明，在此数据集上培训的模型在Librispeech的测试清洁测试集上实现了9.98％的单词错误率。最后，我们讨论了围绕创建一个相当大量的机器学习的法律和道德问题，并计划继续维护项目的计划根据MLCommons的赞助。

translated by 谷歌翻译